from llama_cpp import Llama

# 初始化模型（使用Q4_K_M量化，内存约1.8GB）
model_path = r"D:\ideaSpace\MyPython\models\Phi-3-mini-4k-instruct.Q4_K_M.gguf"
llm = Llama(
    model_path=model_path,
    n_threads=4,  # 线程数=CPU物理核心数
    n_ctx=512     # 上下文长度（越长内存占用越高）
)
# 启用AMD GPU加速（需测试兼容性）
"""
llm = Llama(
    model_path=model_path,
    n_gpu_layers=20,  # 启用GPU加速（AMD需安装ROCm，安装ROCm可能会带来一些潜在影响和兼容性问题，不建议）
    n_threads=4
)"""

# 生成回复
response = llm.create_chat_completion(
    messages=[{"role": "user", "content": "用中文解释RAG的原理"}],
    max_tokens=100,
    temperature=0.1
)
print(response['choices'][0]['message']['content'])